The Innovation | 分布式训练与分散式执行: 大规模多智能体协同强化学习新框架

Original GuangHui Wen TheInnovation创新 2021-11-28

导读

近年来，大规模多智能体协同强化学习因其广泛的工程应用价值逐渐成为了国内外研究热点。为解决多智能体协同强化学习算法中可扩展性低、动作耦合约束适应性差等瓶颈问题，本文采用嵌入分布式信息交互算法，构建了分布式训练与分散式执行的多智能体协同强化学习框架，成功解决了带有耦合动作约束的多智能体协同强化学习的问题。

大规模多智能体协同强化学习算法在其复杂度、可扩展性、耦合约束适应性等方面面临诸多挑战。近年来，基于集中式训练与分散式执行（CTDE）框架的多智能体协同强化学习算法引起了国内外学者的广泛关注。CTDE中每个智能体使用全局信息训练局部参数，并以分散式的方式执行动作，算法具有一定的可扩展性。然而，多智能体协同强化学习问题中环境的全局信息往往难以获取，且大多数多智能体协同强化学习问题中每个智能体的动作可能会受到其他智能体动作的影响，即联合动作存在耦合约束，导致基于CTDE框架的算法难以解决全局状态未知且带有复杂耦合约束的多智能体协同强化学习问题。实际上，解决带有复杂耦合约束的多智能体协同强化学习问题已成为多智能体协同强化学习算法实用性的重要指标之一。本文通过在CTDE框架中构建并嵌入智能体之间的分布式信息交互算法，提出一种新的分布式强化学习框架——分布式训练与分散式执行（DTDE）。

图1 图文摘要

DTDE算法框架如图1所示，其中每个智能体通过底层通信网络与其相邻智能体进行信息交互，并基于分布式一致性协议分别估计全局的状态信息和奖励信息。记智能体对全局状态和奖励的估计分别为和。智能体之间通过底层通信网络进行分布式探索寻找满足动作约束的联合动作。每个智能体根据全局状态估计和局部动作构建局部函数并且分布式训练动作价值函数参数。实际场景中，多智能体协同强化学习中的全局状态和奖励是根据所考虑的具体任务来定义的（例如，考虑存在多个发电机组的智能电网动态经济调度问题时，每个时段的电力总需求通常被定义为全局状态，单个发电机组的发电成本倒数值定义为该发电机组的局部奖励；每个发电机组的电力输出值为局部动作，联合动作的选取需要满足所有发电机组电力输出值之和等于电力总需求这一耦合约束。当使用多智能体协同强化学习来对动态经济调度问题进行建模与分析时，多智能体协同强化学习的目标是在满足电力供需平衡的条件下使所有发电机组的总发电成本最小）。

DTDE的关键步骤如下：

步骤一

基于局部观测信息估计全局状态和全局奖励信息：智能体从环境中获取局部观测信息，并通过分布式一致性协议估计全局状态。当智能体之间的通信网络为连通图时，可以设计布式一致性协议使智能体的局部状态估计收敛到全局状态s。此外，每个智能体利用其邻居的信息估计全局奖励r；

步骤二

分布式探索可行的联合动作：每个智能体通过通信网络获得其邻居智能体的信息，并通过分布式探索寻找可行联合动作。需要注意的是，是智能体获取的邻居智能体的信息，这些信息被迭代更新，直到联合动作成为可行的动作；

步骤三

分布式学习可行的最优联合动作：每个智能体通过最小化TD误差来更新局部参数，其中是下一时刻的全局状态估计值，为周期性更新的目标网络（Target Network）参数。通过分布式优化技术计算，求取满足耦合约束的最优动作。

总结和展望

DTDE框架的优势是利用分布式信息交互处理全局状态未知和耦合动作约束。智能体通过底层网络进行分布式信息交互进而实现对环境全局状态的估计，并基于分布式优化计算可行的最优联合动作。未来工作包括提出几种典型的基于DTDE的多智能体协同强化学习算法，给出算法有效性和最优性的理论分析，并在大规模分布式学习工程任务中验证算法的可行性。

► 扫二维码｜查看原文

原文链接：https://www.cell.com/the-innovation/fulltext/S2666-6758(21)00087-4

本文内容来自Cell Press合作期刊The Innovation第二卷第四期以Commentary发表的“DTDE: A new cooperative multi-agent reinforcement learning framework” (投稿: 2021-04-23；接收: 2021-08-07；在线刊出: 2021-09-01)。

DOI: https://doi.org/10.1016/j.xinn.2021.100162

引用格式：Wen G., Fu J., Dai P., et al. (2021). DTDE: A new cooperative multi-agent reinforcement learning framework. The Innovation. 2(4),100162.

作者简介

温广辉，IET Fellow, 教育部青年长江学者，国家优秀青年基金获得者，科睿唯安全球高被引学者（工程领域）。现为东南大学青年首席教授，博士生导师，东南大学智能自主系统安全运维与控制实验室创始主任。2012年博士毕业于北京大学，2013年至今在东南大学任教。主要研究兴趣包括分布式强化学习，集群智能与协同控制，分布式安全控制，智能感知与信息融合，鲁棒控制。曾获2010年中国复杂网络学术会议最佳学生论文奖（独立）。2016年教育部自然科学二等奖（排名第3），2016年中国指挥与控制学会科学技术一等奖（排名第2），2018年澳大利亚ARC DECRA Fellow获得者，2019年亚太神经网络学会青年研究奖（独立），2020年中国指挥与控制学会青年科学家奖（独立）。

Web：https://math.seu.edu.cn/wgh/list.htm

付俊杰：东南大学数学学院副研究员，江苏省双创博士，东南大学至善青年学者。2011年获北京大学学士学位，2017年获北京大学力学系统与控制专业博士学位。主要研究方向为受限多智能体系统协同控制、在线学习自适应控制、安全强化学习等。已发表SCI期刊论文30余篇，申请并受理国家发明专利6项。主持完成国家自然科学基金青年基金一项，江苏省自然科学基金青年基金一项。主持在研军委科技委工程重点专项项目一项，国家自然科学基金面上项目一项。曾获2017北京大学优秀博士学位论文奖等。

周佳玲：南京理工大学自动化学院副教授，2012年获北京交通大学自动化学士学位，2017年获北京大学力学系统与控制博士学位。入选中国科协青年人才托举工程、江苏省双创博士。研究兴趣包括群体智能控制、强化学习、分布式优化与博弈等。

往期推荐

	The Innovation \| 新型冠状病毒信息库 (2019nCoVR): 全球范围内有效监测病毒变异
► 点击阅读

	The Innovation \| 拓扑声子材料
► 点击阅读

	The Innovation \| 二维材料：未来应用之星
► 点击阅读

	The Innovation \| clusterProfiler：聚焦海量组学数据核心生物学意义
► 点击阅读

	The Innovation \| 学习自然，点亮未来
► 点击阅读

	The Innovation \| Dragon Man (龙人): 一个新发现的人类支系
► 点击阅读

	3D打印技术在快速应对突发公共卫生事件中的机遇与挑战
► 点击阅读

期刊简介

扫二维码｜ 关注期刊官微

The Innovation 是一本由青年科学家与Cell Press于2020年共同创办的综合性英文学术期刊：向科学界展示鼓舞人心的跨学科发现，鼓励研究人员专注于科学的本质和自由探索的初心。作者们来自全球26个国家；每期1/3-1/4通讯作者来自海外。目前有185位编委会成员，来自21个国家；51%编委来自海外；包含1位诺贝尔奖获得者，26位各国院士；领域覆盖全部自然科学。The Innovation已被DOAJ，ADS，Scopus等数据库收录。

期刊官网1（Owner）：

www.the-innovation.org

期刊官网2（Publisher）：

www.cell.com/the-innovation/home

期刊投稿（Submission）：

www.editorialmanager.com/the-innovation

商务合作（Marketing）：

marketing@the-innovation.org

Logo｜期刊标识

See the unseen & change the unchanged

创新是一扇门，我们探索未知；

创新是一道光，我们脑洞大开；

创新是一本书，我们期待惊喜；

创新是一个“1”，我们从此走起。

第2卷第3期

第2卷第2期

第2卷第1期

第1卷第3期

第1卷第2期

第1卷第1期

: ， . Video Mini Program Like ，轻点两下取消赞 Wow ，轻点两下取消在看

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

不仅要看已抓谁，还须一直抓到没

话费充值活动来了：95元充值100元电话费！

2024的最后一天，给大家的跨年推荐！

The Innovation | 分布式训练与分散式执行: 大规模多智能体协同强化学习新框架

您可能也对以下帖子感兴趣

中美友好合作故事——十万名中国弃婴长大了

看个病要排队两年，癌症都被拖成晚期

不仅要看已抓谁，还须一直抓到没

话费充值活动来了：95元充值100元电话费！

2024的最后一天，给大家的跨年推荐！

生成图片，分享到微信朋友圈

The Innovation | 分布式训练与分散式执行: 大规模多智能体协同强化学习新框架

您可能也对以下帖子感兴趣